RNA

您所在的位置:网站首页 linux 生信分析 RNA

RNA

2024-07-09 00:21| 来源: 网络整理| 查看: 265

目录

前记

一、转录组分析基本概念

二、环境的准备与软件的安装

1、SRAtoolkit

2、FastQC

 3、Fastx_toolkit

4、Hista2

5、Samtools

6、IGV

7、Qualimap

8、Stringtie

10、gffcompare

11、HTSeq

12、R和Rstudio

三、后记

前记

       好几个月没有跑RNA-seq分析了,为防止遗忘,特整理分析流程于转录组分析专栏。RNA-seq分析是生信分析流程比较入门的操作,常规的分析主要包括差异基因表达分析、GO和KEGG分析和WGCNA分析。一般来说,前两个分析是最为常见的,第三个主要存在于纯转录组分析文章中。本文主要讲述转录组分析的第一步,软件的安装和配置。

一、转录组分析基本概念

转录组分析是一种基于高通量测序技术(如RNA-Seq)对生物体内所有转录本(mRNA)进行定量和功能分析的方法。通过转录组分析,可以全面了解生物细胞或组织内的基因表达情况,包括识别差异表达的基因、预测基因功能、鉴定可变剪接等。转录组分析通常包括以下步骤:RNA提取、RNA测序、数据过滤和质量评估、转录本拼接、差异表达分析、功能注释和生物信息学分析等。转录组分析广泛应用于基础生物学、医学、农业和环境科学等领域。

二、环境的准备与软件的安装

转录组分析需要借助Linux环境,可以在服务器上或者虚拟机上进行操作。主要安装的软件有以下几种:

1、SRAtoolkit

SRAtoolkit是NCBI(美国国家生物技术信息中心)开源的软件包,用于处理和分析SRA(Sequence Read Archive)格式的高通量测序数据。它提供了下载、转换、索引、过滤和QC等多种功能,可以将原始的SRA数据转换为FASTQ格式,方便用户进行后续的数据分析和挖掘。SRAtoolkit适用于各种高通量测序技术,如RNA-seq、ChIP-seq、Exome-seq等,可广泛应用于基因组学、转录组学、表观遗传学等领域。由于其高效、稳定和易用的特点,SRAtoolkit已成为处理SRA数据的重要工具之一。

#从NCBI官网上下载 wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.9/sratoolkit.2.10.9-ubuntu64.tar.gz #解压并安装 tar xzvf sratoolkit.2.10.9-ubuntu64.tar.gz 2、FastQC

FastQC是一款用于快速检查测序数据质量的软件。它可以对FASTQ格式的数据进行各种统计分析,如GC含量、序列长度分布、质量分布等,同时也能检查序列中的一些问题,如序列重复、低质量碱基、内部适配体等。FastQC在分析过程中会生成HTML格式的报告,展示数据的质量状况和问题,用户可以根据报告中的结果对数据进行筛选、去除低质量数据,以及优化后续的分析流程。由于其简单易用和高效性,FastQC已成为高通量测序数据预处理和分析的重要工具之一。

#使用conda安装到指定文件夹 conda install fastqc --prefix=/home/cxgg/biosoft/fastqc #测试安装,进入到bin文件夹后,运行以下命令 ./fastqc

运行此软件后,回有一个GUI界面,安装成功。

 3、Fastx_toolkit

Fastx_toolkit是一款高效、易用、可定制、多功能的开源软件包,用于处理和分析FASTQ文件。它支持多种常用的FASTQ文件格式,提供了质量控制、过滤、修剪、转换和分析等多种功能,可用于基因组学、转录组学、RNA测序等领域的数据处理和分析。

#使用conda进行安装 conda install fastx_toolkit --prefix=/home/cxgg/biosoft/fastx_toolkit 4、Hista2

HISAT2是一款高效的RNA序列比对软件,用于将高通量测序数据比对到参考基因组上。相较于其前身HISAT和其他RNA比对工具(如STAR和TopHat),HISAT2有更快的比对速度和更低的内存占用,能够在大规模数据比对中取得良好的性能表现。HISAT2采用了一种新的索引方法,即基于Burrows-Wheeler变换和Ferragina-Manzini(FM)索引结合的算法,能够对基因组进行高效的索引和存储,并在比对时快速地搜索匹配。另外,HISAT2还提供了多种比对选项,如单端序列和双端序列比对、可变剪接位点的比对和跨越内含子的比对等。综上,HISAT2是一款高效、准确且易于使用的RNA序列比对工具,适用于各类RNA测序数据的比对和分析。

#官网安装 wget https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download mv download hisat2-2.2.1-Linux_x86_64.zip unzip hisat2-2.2.1-Linux_x86_64.zip 5、Samtools

Samtools是一个高效的工具集,用于处理SAM(Sequence Alignment/Map)和BAM(Binary Alignment/Map)文件的格式转换、过滤、排序、索引和统计。Samtools提供了一些重要的功能,如计算覆盖深度、查找SNP和INDEL、检测重叠等等。Samtools可以被广泛应用于NGS(Next-Generation Sequencing)数据分析的各个领域,如基因组学、转录组学、变异分析等。Samtools支持自定义和高度可配置的参数设置,可以根据实际数据的特点进行调节,以达到最佳的数据分析效果。因此,Samtools是NGS数据分析中不可或缺的工具之一。

#使用conda安装 conda install samtools --prefix=/home/cxgg/biosoft/samtools 6、IGV

IGV(Integrative Genomics Viewer)是一款功能强大、易于使用的基因组浏览器,适用于研究人员和生物信息学家的基因组数据分析和可视化。IGV支持多种常见数据格式,包括BAM、VCF、BED、GTF、FASTA等,能够快速展示各种基因组数据,包括基因注释、RNA测序、染色体畸变、变异、拷贝数变异等。IGV提供了丰富的功能和工具,如基因组导航、比对检视器、数据过滤器、序列搜索器、变异筛选器和批注器等,允许用户自定义、调整和探索基因组数据。此外,IGV还支持用户编写自己的插件和扩展,可以实现更加灵活的数据分析和可视化。IGV的可视化效果直观,操作简便,被广泛应用于基因组学、癌症基因组学、遗传研究等方面。

#官网下载 wget https://data.broadinstitute.org/igv/projects/downloads/2.16/IGV_Linux_2.16.2_WithJava.zip 7、Qualimap

Qualimap是一款基于Java的质量评估工具,主要用于评估Ngs数据的比对和定量结果。该软件能够快速、准确地生成比对或定量数据的可视化分析报告,支持包括Bam、Sam、Bed、Gtf、Gff等格式的文件输入,并提供了直观清晰的图表和热图显示,包括比对数据的深度分布,覆盖度等指标的可视化分析等等。此外,Qualimap还提供了多种常用的质量评估工具,例如序列质量评估,比对效率评估,比对QC评估,定量评估,SNP检测和注释等。它不仅为研究人员提供了快速、方便的数据质量分析和结果呈现工具,而且可为进一步的数据解析和下一步研究设计提供有价值的指导和支持。

#从官网上下载 wget https://bitbucket.org/kokonech/qualimap/downloads/qualimap_v2.3.zip #解压与安装 unzip qualimap_v2.3.zip 8、Stringtie

StringTie是一款用于RNA-seq数据分析和转录本组装的软件工具。它能够准确、快速地将RNA-seq的短读比对到基因组上,组装出全长和部分转录本,同时对组装结果进行评估和注释。StringTie独特的优势在于其使用了一种基于流程图的算法,能够更好地处理在转录本重叠的情况下进行组装。此外,它还采用了基于抽样的模式分布(Mixture-of-Isoforms模型)来给不同的转录本表达水平分配权值,使其在不同条件下的表达情况更加准确。StringTie的输出格式方便后续分析,可以直接用于差异表达分析和可变剪切事件检测等。StringTie的性能在不同类型的样本和数据集上已经得到了广泛验证,是RNA-seq数据分析中的重要工具之一。

#官网下载 wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.2.1.Linux_x86_64.tar.gz #解压与安装 tar zxvf stringtie-2.2.1.Linux_x86_64.tar.gz 9、Cufflinks

Cufflinks是一款RNA-Seq数据分析软件,主要用于辅助进行转录本组装和差异表达分析。它能够提取RNA-Seq数据中的多个基因转录本信息,对这些转录本进行分类、组装,从而进一步获得全基因组转录本组装的结果。同时,Cufflinks还能够计算不同条件下的基因转录本表达量,以及不同情况下的可变剪切事件。Cufflinks分析结果的输出文件格式与常用的生物信息学工具相兼容,方便后续数据分析和进一步应用。Cufflinks的主要优势在于能够将单个样本中的RNA-Seq数据进行转录本组装,不需要参考基因组。此外,它还能够将多个样本的转录本进行合并,从而进一步提高准确性。Cufflinks已经成为RNA-Seq数据分析领域中的研究人员广泛使用的软件工具之一。

#官网下载 wget http://cole-trapnell-lab.github.io/cufflinks/assets/downloads/cufflinks-2.2.1.Linux_x86_64.tar.gz #解压和安装 tar zxvf cufflinks-2.2.1.Linux_x86_64.tar.gz 10、gffcompare

gffcompare是一种常用的基因组注释比较工具,用于比较和分析GTF/GFF文件中的注释信息,可对比较结果进行可视化展示。gffcompare可以对不同基因组注释版本之间的差异进行比较,也可以对同一基因组不同注释软件生成的注释结果进行比较,帮助研究者从多个角度分析基因组注释结果的差异。gffcompare采用C++编写,具有较高的运行效率和可扩展性,可在Linux、Mac OS X等操作系统上使用,是生物信息学领域中基因组注释分析工具的重要组成部分。

GffCompare (jhu.edu)https://ccb.jhu.edu/software/stringtie/gffcompare.shtml

#官网下载 wget http://ccb.jhu.edu/software/stringtie/dl/gffcompare-0.12.6.tar.gz 11、HTSeq

HTSeq是一种用于高通量测序(HTS)数据分析的Python工具。它可以从SAM/BAM文件中提取基因表达信息,并将其转化为基因表达矩阵,这对于基因差异分析以及基因表达量定量分析非常有用。HTSeq 与各种不同的HTS工具可以协同工作,例如Bowtie、STAR等。另外,它还可以根据基因注释信息,对每个基因的表达情况进行分类,即算法根据转录本坐标信息和gene annotation一起,对reads进行基于位置的归类,计算read在gene body或Utr等处的数量,从而确定基因的表达量。

#pip安装 pip install HTSeq #或者,使用conda安装 conda install -c bioconda htseq 12、R和Rstudio

在RNA-seq分析中,R和Rstudio的作用十分重要。R中有许多专门用于RNA-seq数据分析的包,比如DESeq2、edgeR、limma等,可以进行基因差异表达分析和富集分析等。而Rstudio则提供了一个可视化的界面,方便数据的导入、处理和结果的呈现。在RNA-seq分析中,可以通过R和Rstudio编写相应的脚本和代码,来实现自动化分析和结果的可视化展示,节约了时间和提高了研究的效率。下载和安装详见下方链接:

R、Rstudio和Rtools的安装(以4.3.0版本为例)_rtools安装路径_沉香GG的博客-CSDN博客这里下载的是4.3.0版本,选择Windows版本,下载后选择路径进行安装,默认选项即可。选择Windows10版本进行安装。_rtools安装路径https://blog.csdn.net/m0_53915752/article/details/130573927?spm=1001.2014.3001.5501

三、后记

OK,以上是RNA-seq分析中常用软件的下载和安装过程,每种软件的下载方案有多个,可以使用conda、git或者直接wget源码进行安装。

2023.8.19

----CXGG



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3